package com.tedu.cn;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;

import java.util.List;

/**
 * 这是我 的第一个爬虫项目
 */
public class WebmagicMain implements PageProcessor {

    //定义爬虫的site对象
    private Site site = Site.me().setSleepTime(100).setTimeOut(1000).setRetryTimes(5);

    /**
     * 解析页面  解析一下页面的内容；；；学习正则表达式；；；；
     * @param page
     */
    public void process(Page page) {
        Html html = page.getHtml();
        System.out.println("网页："+page.getHtml().getDocument().title());
        System.out.println(html.getDocument().text());
        List<String> all = html.links().all();
        //把新 url添加到爬虫
        page.addTargetRequests(all);//  自动爬取
        System.out.println(all);
    }

    public Site getSite() {
        return site;
    }

    //main方法  程序的入口
    public static void main(String[] args) {
        //声明  爬虫的对象
        WebmagicMain webmagicMain = new WebmagicMain();
        //Spider
        Spider spider = Spider.create(webmagicMain);
        //设置
        spider.addUrl("http://www.dangjian.com/");
        //开始运行
        spider.run();
    }
}
